Average word length | # of sentences | Source |
---|---|---|
11.20 | 17 | http://mr.wikipedia.org/wiki/२०१५-१६_रणजी_करंडक |
12.78 | 13 | http://mr.wikipedia.org/wiki/भीम_अॅप |
13.00 | 23 | http://mr.wikipedia.org/wiki/२०१४-१५_रणजी_करंडक |
13.34 | 11 | http://mr.wikipedia.org/wiki/श्रीरामाचे_वंशज |
13.44 | 248 | http://mr.wikipedia.org/wiki/मराठी_भाषेतील_पारायण_ग्रंथ |
13.81 | 12 | http://mr.wikipedia.org/wiki/सवाई |
13.92 | 17 | http://mr.wikipedia.org/wiki/गुढी |
14.26 | 109 | http://mr.wikipedia.org/wiki/संताजी_जगनाडे |
14.36 | 11 | http://mr.wikipedia.org/wiki/एअर_मॉरिशस |
14.37 | 12 | http://mr.wikipedia.org/wiki/वैशाली_(प्राचीन_शहर) |
14.41 | 11 | http://mr.wikipedia.org/wiki/हनुमान_चालीसा |
14.41 | 10 | http://mr.wikipedia.org/wiki/रेड_रुफ_इन |
14.49 | 12 | http://mr.wikipedia.org/wiki/करुणात्रिपदी |
14.68 | 10 | http://mr.wikipedia.org/wiki/चक्रवाढ_व्याजाचे_गणित |
14.71 | 13 | http://mr.wikipedia.org/wiki/वृक्षायुर्वेद |
14.80 | 13 | http://mr.wikipedia.org/wiki/मोजण्याची_गोष्ट |
14.98 | 97 | http://mr.wikipedia.org/wiki/साहित्यातील_अस्पृश्यता |
14.99 | 11 | http://mr.wikipedia.org/wiki/जव्हार_संस्थान |
15.16 | 10 | http://mr.wikipedia.org/wiki/के._राधाकृष्णन_(राजकारणी) |
15.23 | 33 | http://mr.wikipedia.org/wiki/राधा |
15.32 | 24 | http://mr.wikipedia.org/wiki/आकाशवाणी |
15.33 | 16 | http://mr.wikipedia.org/wiki/हळदी_(करवीर) |
15.33 | 10 | http://mr.wikipedia.org/wiki/बाटी |
15.40 | 13 | http://mr.wikipedia.org/wiki/सीलम |
15.42 | 10 | http://mr.wikipedia.org/wiki/नारायण_कृष्ण_गद्रे |
15.43 | 11 | http://mr.wikipedia.org/wiki/संख्या_महात्म्य_१ |
15.45 | 22 | http://mr.wikipedia.org/wiki/ओवी |
15.46 | 11 | http://mr.wikipedia.org/wiki/त्रिरत्न_वंदना |
15.47 | 13 | http://mr.wikipedia.org/wiki/अशोक_पत्की |
15.52 | 10 | http://mr.wikipedia.org/wiki/बाराक्षार_पद्धती |
Average word length | # of sentences | Source |
---|---|---|
22.69 | 14 | http://mr.wikipedia.org/wiki/अलिप्त_राष्ट्रगट_चळवळ |
22.15 | 16 | http://mr.wikipedia.org/wiki/स्त्रीवादी_सिद्धांकन |
22.04 | 13 | http://mr.wikipedia.org/wiki/फिरोदिया_करंडक |
21.77 | 10 | http://mr.wikipedia.org/wiki/औद्योगिक_प्रशिक्षण_संस्था_(आय.टी.आय.) |
21.76 | 25 | http://mr.wikipedia.org/wiki/अभिव्यक्तिस्वातंत्र्य |
21.60 | 31 | http://mr.wikipedia.org/wiki/पुरातत्त्वशास्त्र |
21.60 | 10 | http://mr.wikipedia.org/wiki/दौलतमंगळ |
21.56 | 17 | http://mr.wikipedia.org/wiki/लीळाचरित्र |
21.51 | 19 | http://mr.wikipedia.org/wiki/कृष्ण_श्रीनिवास_अर्जुनवाडकर |
21.50 | 10 | http://mr.wikipedia.org/wiki/नाथ_पंथाचा_इतिहास |
21.43 | 11 | http://mr.wikipedia.org/wiki/लीलाताई_पाटील |
21.41 | 10 | http://mr.wikipedia.org/wiki/ताराबाई |
21.40 | 11 | http://mr.wikipedia.org/wiki/महाराष्ट्रामध्ये_बौद्ध_धर्म |
21.34 | 15 | http://mr.wikipedia.org/wiki/समीक्षा |
21.30 | 17 | http://mr.wikipedia.org/wiki/प्रफुल्ल_केशवराव_घाणेकर |
21.29 | 11 | http://mr.wikipedia.org/wiki/चळवळीचे_दिवस_(आत्मचरित्र) |
21.26 | 11 | http://mr.wikipedia.org/wiki/ऑस्ट्रिया |
21.19 | 11 | http://mr.wikipedia.org/wiki/सदानंद_भटकळ |
21.18 | 14 | http://mr.wikipedia.org/wiki/फेमिनिस्ट_प्रॅक्सीस:_रिसर्च,_थियरी_अँड_एपिसटेमोलोजी_इन_फेमिनिस्ट_सोशियोलोजी_(पुस्तक) |
21.14 | 12 | http://mr.wikipedia.org/wiki/दत्ताजी_ताम्हाणे |
21.12 | 12 | http://mr.wikipedia.org/wiki/रघुवीर_शंकर_मुळगावकर |
21.11 | 21 | http://mr.wikipedia.org/wiki/अगस्त्य |
21.11 | 11 | http://mr.wikipedia.org/wiki/लिओनार्ड_ऑयलर |
21.10 | 11 | http://mr.wikipedia.org/wiki/कीर्तनकार |
21.07 | 13 | http://mr.wikipedia.org/wiki/अधोमुखी_लवणस्तंभ |
21.06 | 27 | http://mr.wikipedia.org/wiki/रससूत्राचे_भाष्यकार |
21.06 | 11 | http://mr.wikipedia.org/wiki/शिक्षण_प्रणालीत_तंत्रज्ञानाचा_उपयोग |
21.03 | 13 | http://mr.wikipedia.org/wiki/श्रीमान_योगी |
21.00 | 13 | http://mr.wikipedia.org/wiki/रावसाहेब_शिंदे |
21.00 | 13 | http://mr.wikipedia.org/wiki/सुनीलकुमार_लवटे |
The problem addressed in this subsection (as well as the results) is similar to 6.4.1.1, but now we focus on average word length instead of average sentence length.
Measuring average word length strongly depends on tokenization. The usual tokenization might split the string “28.06.2005” into five parts “28 . 06 . 2005” of average length two. To avoid this, the number of words is counted as 1 + (number of blanks in the sentence).
select round(avg(length(sentence) / (1+ length(sentence) - length(replace(sentence," ","")))),2) as le, count(sentence) as cnt, source from sentences s, inv_so i, sources so where s.s_id=i.s_id and i.so_id=so.so_id group by source having cnt>=10 order by le limit 30;
6.4.2.2 Average logarithmic word rank for different sources
6.4.2.3 Sources consisting of many / few words with frequency 1
6.4.2.4 Sources with low / high average word length of rare words